Parameter für „U/V Detection“ von EVOC 20 TrackOscillator

Die menschliche Sprache besteht aus einer Reihe stimmhafter Laute (Töne oder Formanten) und stimmloser Laute. Der Hauptunterschied ist, dass stimmhafte Laute durch Schwingungen der Stimmbänder erzeugt werden, während stimmlose Laute durch das Formen von Luftströmen (Rauschen) mit Lippen, Zunge, Gaumen, Rachen und Kehlkopf gebildet werden.

Wenn also in einem Vocoder Sprache mit stimmhaften und stimmlosen Lauten als Analysesignal verwendet wird, im Syntheseteil aber nicht zwischen stimmhaften und stimmlosen Lauten unterschieden wird, leidet die Sprachverständlichkeit des synthetisierten Signals. Der Synthesis-Bereich des Vocoders muss also unterschiedliche Klänge für die stimmhaften und stimmlosen Signalanteile erzeugen.

Der EVOC 20 TrackOscillator enthält daher einen Detektor für stimmhafte/stimmlose Sprachelemente. Dieser erkennt stimmlose Laute im Analysesignal (unvoiced) und ersetzt dann das Synthesesignal durch „Noise“ (Rauschen), eine Mischung von „Noise“ und „Synth“ oder aber durch das Originalsignal. Erkennt der U/V-Detector hingegen stimmhafte Laute (voiced), lässt er das normale Synthesesignal passieren.

Kurze Einführung in Formanten

Unter einem Formanten versteht man einen charakteristisch betonten Frequenzbereich mit Wiedererkennungswert. In Verbindung mit menschlichen Stimmen bezeichnet der Begriff „Formant“ die entscheidende Komponente, die Menschen befähigt, zwischen verschiedenen Vokalklängen zu unterscheiden – allein auf der Basis der Frequenz der jeweiligen Klänge. Formanten in Sprache und Gesang werden vom Vokaltrakt gebildet, wobei die meisten Vokaltöne vier oder mehr Formanten enthalten.

Abbildung. Parameter für „U/V Detection“

Parameter für „U/V Detection“